#!/bin/bashi

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
export VLLM_ENGINE_ITERATION_TIMEOUT_S=36000
export VLLM_RPC_TIMEOUT=36000000


XINFERENCE_MODEL_SRC=modelscope XINFERENCE_HOME=/xinference/xinference_cache xinference-local -H 0.0.0.0  &
while true; do
  if curl -s "http://localhost:9997" > /dev/null; then
    break
  else
    sleep 1
  fi
done


#xinference launch --model-engine vllm --model-name deepseek-r1-distill-qwen --size-in-billions 32 --model-format pytorch  --model_path /data/DeepSeek-R1-Distill-Qwen-32B --n-gpu 4 --replica 3 --max_model_len 32768
#xinference launch --model-engine vllm --model-name deepseek-r1-distill-qwen --size-in-billions 7 --model-format pytorch  --model_path /data/DeepSeek-R1-Distill-Qwen-7B --n-gpu 2 --gpu-idx 12,13 --max_model_len 32768
#xinference launch --model-engine vllm --model-name deepseek-r1-distill-qwen --size-in-billions 7 --model-format pytorch  --model_path /data/DeepSeek-R1-Distill-Qwen-7B --n-gpu 2 --gpu-idx 12,13 --max_model_len 32768
xinference launch --model-engine vllm --model-name deepseek-r1 --size-in-billions 671 --model_path /home/kd/models/DeepSeek-R1-awq --model-format awq --n-gpu 16 --model_quantization awq_marlin --reasoning_content true --max_num_seqs 128 --max_model_len $[1024*16] --gpu_memory_utilization 0.92 --api-key 6d083db38ab28c6c
xinference launch --model-name text2vec-large-chinese --model-type embedding --model_path /home/kd/models/shibing624_text2vec-base-chinese --n-gpu None --api-key 9a9c1cadef336e09
#xinference launch --model-engine vllm --model-name bge-m3 --model-type embedding --model-format pytorch  --model_path /data/bge-m3 --gpu-idx 14 
#xinference launch --model-engine vllm --model-name bge-reranker-base --model-type rerank --model-format pytorch  --model_path /data/bge-reranker-base --gpu-idx 15

wait


